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摘要 : [目的 /意义 ] 针 对 本 地 化 电子 资源 使 用 统计 系统 面临 的 新 闻 题 ,提出 用 于 解析 HTTPS 访问 数据 的 方 
法 并 对 其 进行 分 析 和 评价 ,为 图 书馆 在 本 地 化 电子 资源 使 用 统计 系统 中 解决 基于 HTTPS 协议 访问 的 电子 资源 
访问 数据 的 采集 问题 提供 参考 。[ 方法“ 过程] 从 软 硬 件 需求 、 网 络 条 件 、 系 统 功能 、 用 户 配 合 需求 4 个 方面 对 浏 
览 器 扩展 程序 支持 中 间 人 技术 的 代理 程序 和 支持 SSL 代理 的 网 关 型 设备 三 种 方法 进行 比较 和 评价 。[ 结果 / 
结论 ] 研究 表明 ,支持 中 间 人 技术 的 代理 程序 成 本 适中 ,系统 功能 最 强 , 最 适宜 应 用 于 本 地 化 电子 资源 使 用 统计 
索 统 。 在 解决 HTTPS 访问 数据 采集 问题 的 基础 上 ,如 何 保障 用 户 的 隐私 和 数据 安全 ,取得 用 户 的 合作 和 配合 是 


化 电子 资源 使 用 统计 系统 应 用 的 最 大 难点 。 
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使 用 统计 浏览 器 扩展 ”代理 程序 SSL 代理 网 关 


电子 资源 是 当前 图 书馆 的 馆藏 重点 ,电子 资源 的 
内 容 不 断 扩展 、 其 订购 费 也 逐年 攀升 。 在 逐年 上 涨 的 
经 费 压 力 下 ,图 书馆 不 得 不 考虑 对 电子 资源 进行 有 效 
评 你 ,从 而 为 电子 资源 的 订购 决策 提供 参考 ,最 终 实 现 
有 恨 经 费 的 最 大 合理 化 应 用 。 在 电子 资源 的 评价 体系 
中 @ 对 其 使 用 情况 的 统计 数据 是 十 分 重要 的 一 个 评价 
指 彼 。 电 子 资 源 使 用 统计 数据 对 于 图 书馆 具有 重要 价 
值 ,其 精确 地 反映 了 电子 资源 的 利用 状况 ,可 为 图 书馆 
重 构 网 络 门户 、 提 供用 户 培训 课程 以 及 明确 重点 突出 
那些 电子 资源 产品 提供 重要 参考 ,还 能 辅助 图 书馆 员 
制定 有 关 电 子 资 源 购买 和 管理 方面 的 馆藏 决策 ” 。 

当前 图 书馆 主要 通过 数据 库 商 提供 的 基于 Count- 
er 规范 的 使 用 统计 报告 获取 电子 资源 的 使 用 统计 数 
据 , 并 通过 应 用 ScholaryStats 、.ExLibrisUStat 等 支持 SU- 
SHI 协议 的 独立 统计 软件 或 电子 资源 管理 系统 ” , 实 
现 数据 收集 和 统计 工作 的 自动 化 。 

数据 库 商 提供 的 基于 Counter 规范 的 使 用 统计 报 
告 虽然 已 经 十 分 完善 和 便捷 ,但 还 存在 一 定 的 局 限 性 : 
QD 数据 库 商 的 统计 数据 有 时 无 法 反映 真实 的 用 户 行 


为 。 用 户 的 误 操 作 、 重 复 刷 新 等 行为 导致 统计 用 量 与 
真实 用 量 有 时 并 不 一 致 ”。 使 用 率 数据 过 低 时 ,数据 
库 商 亦 有 可 能 不 提供 真实 的 统计 数字 ”。@) 数 据 库 商 
的 使 用 统计 报告 并 非 实 时 生成 ,无 法 满足 图 书馆 实时 
查询 的 需求 。@ 数 据 库 商 提供 的 使 用 统计 报告 无 法 反 
应 图 书馆 馆藏 系统 、 机 构 知 识 库 和 科学 数据 库 等 自 建 
电子 资源 的 使 用 情况 。()Counter 报告 只 能 提供 统计 
数字 ,无 法 满足 图 书馆 对 电子 资源 进行 内 容 级 /用 户 级 
的 及 时 深入 的 分 析 和 数据 挖掘 的 需要 ” 。 

为 了 解决 Counter 报告 的 局 限 性 问题 ,满足 图 书馆 
对 电子 资源 进行 深入 分 析 和 数据 挖掘 的 需求 ,国内 图 
书馆 陆续 开展 了 本 地 化 电子 资源 使 用 统计 系统 的 研究 
工作 并 取得 了 丰厚 的 研究 成 果 。 然 而 近年 来 本 地 化 的 
电子 资源 系统 面临 一 个 新 的 情况 , 越 来 越 多 的 数据 库 
为 了 保障 数据 安全 将 电子 资源 的 访问 方式 从 基于 HT- 
TP(Hypertext Transfer Protocol ) 协议 转换 为 基于 HTTPS 
(Hyper Text Transfer Protocol over Secure Socket Layer ) 
协议 ,如 OSA 数据 库 于 2017 年 ,ACS 和 Wiley 数据 库 
于 2018 年 分 别 部 署 了 基于 HTTPS 协议 的 访问 并 取消 
了 基于 HTTP 的 访问 ; ScienceDirect .Nature .Springer 等 
数据 库 则 早 在 2017 年 之 前 就 采用 了 基于 HTTPS 协议 
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的 访问 。HTTP 协议 采用 明文 传输 数据 ,HTTPS 协议 采 
用 密 文 传输 数据 ,这 就 使 得 原先 适 配 于 HTTP 协议 的 
本 地 化 电子 资源 使 用 统计 系统 无 法 采集 更 换 协议 后 的 
电子 资源 的 访问 数据 。 如 何 采集 基于 HTTPS 协议 访 
问 的 电子 资源 的 访问 数据 ,成 为 本 地 化 电子 资源 统计 
系统 急需 解决 的 重要 问题 。 

针对 上 述 问 题 , 本 文 提出 三 种 可 以 用 于 解析 HT- 
TPS 访问 数据 的 方法 ,综合 对 比分 析 这 三 种 方法 在 软 
硬件 需求 .网 络 条 件 .系统 能 力 和 用 户 配合 需求 四 个 方 
面 的 优 劣势 ,为 图 书馆 解决 基于 HTTPS 协议 的 电子 次 
源 访问 数据 的 采集 问题 提供 参考 。 

2 背景 分 析 

2 二 本 地 化 电子 资源 使 用 统计 系统 研究 现状 

全 国内 图 书馆 很 早 就 开展 了 本 地 化 电子 资源 使 用 统 
证 兹 统 的 研究 。 从 采用 的 技术 方法 来 看 ,本 地 化 电子 
瓷 流 统 计 系统 主要 可 以 分 为 两 种 :基于 网 关 日 志 的 采 
集 融 析 模 式 和 基于 旁 路 监听 的 采集 分 析 模式 。 在 网 关 
日 起 的 采集 分 析 方面 主要 有 :使 用 网 关 日 志 构 建 电 子 
使 用 统计 系统 ' ;挖掘 防火 墙 日 志 构建 电子 期 乔 
数据 库 统计 分 析 系 统 "1 ;通过 代理 服务 器 的 Web 日 志 
构建 电子 资源 日 志 统计 系统 中 ;图 书馆 数字 资源 访问 
系 线 的 日 志 处 理 和 数据 挖掘 等。 在 旁 路 监听 的 采集 
分 本 模式 方面 主要 有 :基于 ERU 系统 研究 图 书馆 用 户 
停 筷 行为 数据 采集 方法 "” ,利用 旁 路 监听 设计 及 应 用 
电 崇 资源 访问 管理 与 控制 系统 " ,利用 旁 路 监听 设计 
和 凉 用 高 校 电 子 资源 访问 管理 控制 系统 ,基于 旁 路 
旺 硬 设计 和 实现 数字 资源 评估 系统 "等 。 

在 基于 网 关 日 志 的 采集 分 析 模式 下 ,网 关 设备 如 
核心 交换 机 ,防火 墙 ,代理 服务 器 等 ,会 对 流 经 网 关 的 
互联 网 访问 数据 进行 记录 并 形成 日 志文 件 ,日 志文 件 
中 包含 了 用 户 对 电子 资源 的 访问 数据 。 在 这 种 情况 
下 ,图 书馆 只 要 采取 一 定 的 日 志 收割 策略 ,通过 编写 日 
志 收 制程 序 、 过 滤 和 分 析 日 志 信息 之 后 就 能 生成 电子 
资源 的 使 用 统计 报告 。 基 于 网 关 日 志 的 采集 分 析 模 式 
的 优点 在 于 不 需要 变更 现 有 的 网 络 拓扑 ,也 不 需要 增 
加 硬件 设备 ,可 以 直接 通过 网 关 设 备 自 带 的 日 志 功能 
来 获取 电子 资源 的 使 用 统计 报告 。 局 限 性 则 在 于 网 关 
日 志 记录 的 信息 可 能 不 够 完整 ,无 法 满足 图 书馆 深入 
分 析 和 挖掘 数据 的 需求 。 使 用 统计 报告 的 生成 频率 ， 
取决 于 日 志文 件 的 生成 频率 以 及 相应 日 志 收 割 程序 的 
转换 性 能 ,难以 做 到 使 用 统计 报告 的 实时 生成 ,也 无 法 


了 日 志 信息 ,在 用 户 发 生 违规 的 电子 资源 使 用 行为 时 ， 
并 不 能 及 时 终止 违规 行为 。 

基于 旁 路 监听 的 采集 分 析 模式 是 在 现 有 网 络 拓扑 
的 基础 上 增加 专门 的 数据 分 析 服 务 器 ,并 将 数据 分 析 
服务 器 与 网 络 出 口 的 网 关 设 备 相 连接 ,在 网 关 设备 上 
通过 端口 镜像 功能 将 数据 包 复 制 至 数据 分 析 服 务 器 。 
数据 分 析 服 务 器 捕获 并 解析 数据 包 , 对 数据 包 内 容 进 
行 过 滤 分 析 后 生成 电子 资源 使 用 统计 报告 。 这 种 模式 
的 优点 在 于 使 用 端口 镜像 功能 复制 了 数据 包 , 不 需要 
改变 原先 的 网 络 拓扑 结构 ,也 不 会 对 用 户 的 访问 行为 
造成 影响 ;可 以 实时 监控 电子 资源 的 使 用 情况 从 而 对 
上 户 的 违规 信息 行为 进行 预警 ;获得 的 电子 资源 使 用 
数据 完整 准确 ,能够 满足 图 书馆 深入 挖掘 数据 的 需求 。 
局 限 性 则 在 于 需要 增加 专门 的 数据 分 析 服 务 器 用 于 监 
听 .采集 分 析 数 据 ,成 本 较 高 ;尽管 可 以 对 违规 行为 进 
行 实时 监控 ,但 旁 路 监听 的 方式 并 没有 参与 用 户 的 访 
问 行为 ,违规 行为 发 生 时 同样 无 法 立即 终止 用 户 的 违 
规 行为 。 
2.2 HTTP 与 HTTPS 

HTTP 超 文 本 传输 协议 是 在 互联 网 上 进行 通讯 时 
使 用 的 协议 方案 。HTTP 是 无 状态 、 简单 快速 .基于 
TCP 的 可 靠 传输 协议 ,其 最 主要 的 应 用 是 Web 浏览 器 
和 Web 服务 器 之 间 的 双 工 通信 '" 。 目 前 互联 网 上 的 
Web 服务 器 基本 都 使 用 HTTP 协议 来 传输 数据 ,大 部 
分 电子 资源 的 访问 也 都 基于 HTTP 协议 。 

HTTP 虽然 方便 快捷 , 却 存 在 数据 安全 方面 的 问 
题 。HTTP 采用 明文 传输 数据 ,其 传输 的 数据 对 整个 传 
输 链 路 上 的 网 络 设备 都 是 透明 的 ,这 就 使 得 第 三 方 可 
以 窃听 或 算 改 数据 ,甚至 可 以 冒充 Web 服务 器 的 身份 
来 同 用 户 进行 通信 。 

为 了 解决 HTTP 协议 的 数据 安全 问题 ,NetScape 公 
司 设计 了 SSL( Secure Sockets Layer ) 协议 用 于 对 HTTP 
协议 传输 的 数据 进行 加 密 并 将 SSL 应 用 在 了 自家 的 浏 
览 器 中 ,从 而 诞生 了 HTTPS。SSL 协议 总 共有 3 个 版 
本 ,目前 最 新 的 为 SSL3.0 版 本 。1999 年 互联 网 标准 化 
组 织 ISOC 接替 NetScape 公司 ,发 布 了 SSL 的 升级 版 
TLS 1.0 版 。TLS 经 历 了 两 次 升级 ,目前 最 新 的 是 2011 
年 发 布 的 TLS1. 2 的 修订 版 。SSL 及 其 继任 者 TLS 是 
为 网 络 通信 提供 安全 及 数据 完整 性 的 一 种 安全 协议 ， 
其 主要 的 作用 是 :认证 用 户 和 服务 器 ,确保 数据 发 送 到 
正确 的 客户 机 和 服务 器 ;加 密 数 据 以 防止 数据 中 途 被 
窃取 ;维护 数据 的 完整 性 ,确保 数据 在 传输 过 程 中 不 被 


| 


对 电子 资源 的 使 用 情况 进行 实时 监控 。 由 于 只 是 采集 


15 
改变 呈 ) 。 
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从 图 1 来 看 ,HTTP 和 HTTPS 最 大 的 区 别 是 HT- 
TPS 在 HTTP 的 基础 上 引入 了 安全 层 用 于 加 密 数据 , 安 
全 层 可 选用 SSL 或 TLS 协议 。 数 据 在 到 达 传 输 层 的 时 
候 就 已 经 加 密 完 成 ,整个 数据 链 路 上 传输 的 数据 都 是 
加 密 的 ,避免 了 数据 被 修改 和 算 改 的 可 能 。HTTPS 增 
加 了 安全 层 使 得 其 部 署 的 成 本 相 比 于 HTTP 更 高 ,所 
占用 的 服务 器 资源 更 多 ,耗费 的 访问 时 间 更 长 。 尽 管 
部 署 HTTPS 要 求 的 条 件 较 高 ,更 多 的 电子 资源 提供 商 
为 了 自身 数据 的 安全 逐渐 开始 采用 基于 HTTPS 协议 
的 访问 取代 原先 的 基于 HTTP 协议 的 访问 。 
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图 1 HTTP 与 HTTPS 网 络 模型 

3 本 地 化 电子 资源 使 用 统计 系统 面临 
的 问题 及 解决 方案 

二 对 于 采用 HTTPS 协议 访问 的 电子 资源 ,无 论 是 基 


不 再 适用 于 新 的 电子 资源 访问 方式 ,急需 解决 基于 
HTTPS 协议 访问 的 电子 资源 使 用 数据 的 采集 问题 。 

从 HTTPS 的 工作 原理 来 看 , 想 要 解密 HTTPS 可 以 
采用 2 种 方式 :CDHTTPS 的 加 密 和 解密 工作 是 在 安全 
层 进行 的 ,对 应 用 层 而 言 数 据 还 未 加 密 或 已 经 解密 完 
成 ,只 要 在 应 用 层 布 置 监 听 程 序 就 可 以 得 到 未 加 密 的 
数据 。@ 使 用 中 间 人 (Man -in -the-middle ) 技术 来 控制 
客户 端 和 服务 器 端 之 间 的 数据 通讯 。 在 客户 端 和 服务 
器 端 中 间 添 加 第 三 方 ,第 三 方 分 别 与 服务 端 和 客户 端 
建立 连接 ,自身 扮演 客户 端 同 真实 服务 端 通讯 ,同时 扮 
演 服务 端 同 真实 客户 端 通讯 ,交换 客户 端 和 服务 端的 
数据 ,使 得 通讯 两 端 都 认为 自己 直接 与 对 方 对 话 ,事实 
上 整个 会 话 都 被 第 三 方 所 控制 。 

3.1 浏览 器 扩展 程序 

对 于 第 一 种 方式 ,浏览 器 是 访问 Web 资源 最 主要 
的 工具 ,工作 于 应 用 层 。 所 有 的 网 络 访问 数据 对 浏览 
器 而 言 都 是 透明 的 ,可 以 直接 以 明文 方式 查看 ,通过 对 
浏览 器 的 通讯 数据 进行 监听 就 可 以 获取 基于 HTTPS 
协议 访问 的 数据 。 这 种 方法 事实 上 是 绕 过 了 安全 层 ， 
在 应 用 层 上 监听 数据 。 
主流 浏览 器 都 支持 扩展 (Extension ) 程序 ,扩展 程 


网 关 日 志 的 模式 还 是 基于 旁 路 监听 的 模式 , 当 访 问 
数据 到 达 网 关 或 数据 分 析 服务 器 时 都 已 经 是 加 密 后 的 
密 变 ,这 就 使 得 网 关 或 数据 分 析 服务 器 无 法 获得 数据 
的 泽 细 内 容 , 只 能 获取 到 用 户 他 地 址 、 服 务 器 他 地 址 
和 城 名 三 个 信息 ,这 些 信息 并 不 足以 生成 电子 资源 的 
使 用 统计 报告 。 现 有 的 本 地 化 电子 资源 使 用 统计 系统 


序 是 用 来 修改 Web 浏览 器 功能 的 代码 ,使 用 标准 的 
Web 技术 (JavaScript .HTML 和 CSS) 和 一 些 专用 JavaS- 
cript APIs 编写 ,能 够 实现 网 络 请 求 控制 ,各 类 事件 监 
听 等 功能 。 目 前 主流 的 浏览 器 名 称 、 对 应 的 内 核 信 息 
以 及 文 持 的 扩展 接口 如 表 1 所 示 : 


© 表 1 主流 浏览 嚣 名称、 内核 和 扩展 支持 


浏览 器 内 核 扩展 接口 
下 浏览 器 Trident 内 核 BHO ( Browser Helper Object) 
Chrome 浏览 器 .Opera 浏览 器 Blink 内 核 Chrome Extension 
Microsoft Edge 浏览 器 、Safari 浏览 器 Webkit 内 核 Webkit Extension 
Firefox Quantum 浏览 器 Quantum 内 核 WebExtensions API 
360 浏览 器 .猎豹 浏览 器 、 Trident + Blink 双 内 核 BHO + Chrome Extension 
腾讯 TT 淘宝 浏览 器 .搜狗 浏览 器 做 游 浏览 器 .百度 浏览 器 .世界 之 窗 浏 览 器 Trident + Webkit 双 内 核 BHO + Webkit Extension 


表 1 中 的 浏览 器 使 用 了 Trident Webkit Blink 和 
Quantum 4 种 内 核 ,采用 相同 内 核 的 浏览 器 其 扩展 程序 
可 以 相互 兼容 ,Blink 内 核 为 Webkit 内 核 的 升级 版 本 ， 
这 两 种 内 核 的 扩展 程序 也 可 以 相互 兼容 。Firefox 
Quantum 浏览 器 的 WebExtensions API 可 以 兼容 Chrome 
Extension, 因此 在 制作 浏览 器 扩展 程序 时 仅 需 针对 
BHO 和 Chrome Extension 编写 即 可 兼容 市 面 上 主流 的 
浏览 器 。 以 WebExtensions API 为 例 ,从 Firefox Quan- 
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tum 浏览 器 官方 提供 的 文档 可 以 得 知 WebExtensions 
API 中 提供 WebRequest 模块 ,该 模块 中 的 onBeforeRe- 
quest 方法 在 浏览 器 发 送 请 求 时 触发 ,onCompleted 方法 
在 浏览 器 请 求 完 成 时 触发 ""。 通 过 在 这 两 个 方法 中 
加 入 监控 代码 ,制作 相应 的 扩展 程序 ,并 将 扩展 程序 安 
装 在 用 户 的 浏览 器 中 ,在 用 户 访问 电子 资源 时 ,将 用 户 
发 送 的 请 求 信息 和 服务 器 返回 的 内 容 同步 发 送 一 份 到 
图 书馆 的 服务 器 ,就 可 以 实现 基于 HTTPS 协议 访问 的 
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电子 资源 访问 数据 的 采集 。 

3.2 中间 人 技术 

使 用 中 间 人 技术 解密 HITPS 协议 有 两 种 方法 。 
第 一 种 是 使 用 支持 SSL 代理 的 网 关 型 设备 蔡 代 原来 的 
网 关 ,或 将 其 添加 到 原来 的 网 络 拓扑 中 。 支 持 SSL 代 
理 的 网 关 设 备 利 用 SSL 代理 证 书 替 换 加 密 Web 网 站 


的 数字 证 书 , 并 将 SSL 代理 证 书 发 送 到 客户 端的 Web 
浏览 器 ,在 此 过 程 中 ,设备 分 别 作为 SSL 客户 端 和 SSL 
服务 器 与 Web 服务 器 和 Web 浏览 器 建立 SSL 连接 ,从 
而 获得 加 密 通 信 的 明文 内 容 。SSL 代理 证 书 是 使 用 设 
备 本 身 的 证 书 对 Web 服务 器 证 书 重 新 签发 而 成 的 证 
书 "“  。 整 个 工作 过 程 如 图 2 所 示 : 


SSL 


一 一 
NS : 专 一 一 毛 -一 
9 | J — > a 
| < 
SSL 客户 端 SSL 服务 器 
Web 服务 器 端 Web 客户 端 (浏览 器 ) 


SSL 代理 


2 SSL 代理 网 关 


本 这 种 方法 事实 上 还 是 基于 网 关 日 志 的 采集 分 析 模 
\ 沸 是 将 原先 不 支持 HTTPS 解析 的 网 关 设 备 蔡 换 为 
岳 HTTPS 解析 的 网 关 设备 ,仍然 需要 编写 日 志 收 制 
来 生成 电子 资源 使 用 统计 报告 。 由 于 审计 方面 的 
, 越 来 越 多 的 网 关 设备 开始 支持 SSL 代理 功能 。 


男 外 一 种 方法 是 在 数据 分 析 服 务 器 上 部 署 支 持 中 
间 人 技术 的 代理 程序 如 Fiddler、Charles 、whistle 等 , 替 
代 原 有 的 数据 包 捕获 程序 ,用 于 抓 取 和 分 析 数 据 包 。 
以 Charles 代理 程序 为 例 ,其 解析 HITPS 协议 的 过 程 如 
3 所 示 : 


CN Web 客户 端 Charles 程序 服务 器 端 
© 1. 客户 端 向 服务 器 发 送 请 求 
GAN 2 Charles 拦截 请 求 ， 代 替 客户 端 向 服务 器 发 送 请 求 
= 3. 服务 器 返回 证 书 ， 证 书 中 包含 公 铀 
> < [< 
5 冉 截 证 书 ， 将 自己 的 证 书 发 送 给 客户 端 
We a Charles 发 送 来 的 证 书 加 密 数据 ， 发 回 站 本 拉 委 请求， 用 由 己 的 还 书本 负 入 右 必 病 
这 本 | 数据 ， 再 用 服务 器 公 钼 加 密 数据 发 送 请 求 到 服务 器 
© 和 | 

8. Charles 拦截 数据 ， 使 用 服务 器 证 书 密 钥 解密 数据 ， 7. 服务 器 使 用 密 铀 解密 请 求 数据 ， 将 响应 数据 使 用 

将 数据 使 用 自身 证 书 密 钼 加 密 后 发 送 回 客户 端 。 客 公 钥 加 密 后 发 送 回 客户 端 

户 端 使 用 Charles 证 书 密 钥 解密 数据 ， 获 得 服务 器 响 < 

应 内 容 

客户 端 与 服务 器 端的 通讯 都 被 Charles 拦截 ， 整 疏通 讯 过 程 中 的 数据 对 Charles 都 是 透明 的 
全 | 


图 3 Charles 解密 HTTPS 过 程 


从 图 3 可 以 得 知 Charles 代理 程序 在 整个 通讯 过 
程 中 掌握 了 服务 器 证 书 公 钥 和 HTTPS 连接 的 对 称 密 
钥 , 所 有 的 密 文 都 可 以 使 用 对 应 密 钥 来 进行 解密 ,整个 
通讯 过 程 对 Charles 是 透明 的 。 通 过 在 文 持 中 间 人 技 
术 的 代理 程序 中 添加 监听 代码 ,就 可 以 实现 基于 HT- 
TPS 协议 访问 的 电子 资源 访问 数据 的 采集 。 
3.3 数据 分 流 方 法 
支持 SSL 的 网 关 设 备 和 代理 程序 都 是 使 用 中 间 人 


技术 来 解析 HTTPS, 中间 人 技术 需要 能 够 直接 同 客 户 
端 和 服务 端 进行 通讯 ,这 就 要 求 将 采用 中 间 人 技术 的 
设备 或 代理 程序 接 入 到 原 有 的 网 络 拓扑 中 。 对 于 部 署 
代理 程序 的 数据 分 析 服 务 器 而 言 ,如 果 将 其 直接 接 入 
网 络 拓 扑 , 除 了 需要 解析 、 转 发 电子 资源 的 访问 数据 之 
外 还 需要 负载 非 电 子 资源 的 访问 流量 ,数据 分 析 服 务 
器 并 非 专门 的 网 关 设备 ,有 可 能 因为 负载 太 大 而 导致 
服务 器 无 法 正常 工作 。 为 了 解决 这 个 问题 ,可 以 采用 


39 
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数据 分 流 的 方法 只 将 电子 资源 的 访问 数据 转发 至 数据 
分 析 服 务 器 ,而 非 电子 资源 的 访问 数据 则 直接 将 发 送 
至 出 口 网 关 。 


最 常用 的 数据 包 转 发 技术 为 策略 路 由 (Poliey - 


Based Routing ,PRB ) ,策略 路 由 是 一 种 依据 用 户 制 定 的 
策略 进行 路 由 选择 的 机 制 。 通 过 在 核心 交换 机 上 开启 
策略 路 由 功能 ,创建 路 由 访问 控制 列表 ( Access Control 
List, ACL) ,将 电子 资源 服务 器 的 卫 地 址 信息 存储 在 
ACL 列表 中 ,配置 好 转发 策略 后 就 可 以 实现 电子 资源 
访问 数据 的 分 流 。 当 网 络 访问 数据 到 达 核 心 交换 机 
后 ,将 访问 数据 包 的 目标 卫 地 址 与 ACL 列表 进行 匹 
配 ,目标 卫 地 址 为 电子 资源 服务 器 IP 地 址 的 将 数据 
包 转 发 至 数据 分 析 服 务 器 ,其 它 访 问 数据 则 直接 发 送 
至 册 口 网 关 。 策 略 路 由 的 好 处 是 数据 包 转发 是 在 核心 
交 措 机 上 进行 的 ， 不 需要 用 户 参 与 ,用 户 无 法 感知 到 策 
咯 中 由 带 来 的 变化 。 
村 策略 路 由 也 存在 一 定 的 隐患 ,策略 路 由 转发 数据 
的 展 据 是 目标 服务 器 4 的 IP 地 址 。 部 分 电子 资源 为 了 
加 速 自 身 的 访问 采用 CDN (Content Delivery Network ， 
内 容 分 发 网 络 ) 技术 ,通过 布置 多 台 缓存 服务 器 ,将 这 
些 缓存 服务 器 人 分布 到 用 户 访问 相对 集中 的 地 区 或 网 络 
号 在 用 户 访问 网 站 时 ,利用 全 局 负载 技术 将 用 户 的 访 
问 指 向 距离 最 近 的 工作 正常 的 缓存 服务 器 上 ,由 缓存 
服 答 器 直接 响应 用 户 请 求 "1 。 采 用 CDN 技术 的 电子 
资源 配置 有 多 个 缓存 服务 器 ,相应 就 有 多 个 IP 地 址 ， 
当 峙 有 电子 资源 的 人 P 地 址 数量 超过 ACL 列表 所 能 
持 的 最 高 数量 时 ,就 会 导致 部 分 电子 资源 的 访问 数据 
无 汲 被 转发 到 数据 分 析 服 务 器 ,从 而 导致 电子 资源 使 
用 统计 数据 的 不 准确 。 

另外 一 种 数据 分 流 的 方法 是 PAC (proxy auto-con- 
fig, 代 理 自动 配置 ) ,PAC 是 一 个 自动 代理 配置 脚本 文 
件 , 它 能 够 决定 浏览 器 访问 网 络 资源 时 走 默 认 通 道 还 
是 代理 服务 器 通道 。 浏 览 句 通过 配置 PAC 文件 来 实 
现 自 动 代 理 功 能 。PAC 文件 中 包含 一 个 JavaScript 形 
式 的 函数 FindProxyForURL ,该 函数 可 返回 包含 一 个 或 
者 多 个 访问 规则 的 字符 串 ,这 些 规则 字符 串 决 定 浏览 
器 是 否 通过 代理 程序 访问 网 络 资源 。 在 FindProxy- 
ForURL 函数 中 对 浏览 器 访问 的 URL 进行 判断 , 当 
URL 包含 电子 资源 的 域名 信息 时 ,指定 其 通过 代理 程 
序 访问 ,从 而 实现 电子 资源 访问 流量 的 分 流 。 相 比 于 
策略 路 由 ,PAC 使 用 域名 信息 来 分 流 数 据 , 所 需要 的 匹 
配 规 则 大 幅 减 少 ,并 且 不 需要 在 网 关 设 备 上 做 任何 设 
置 , 更 适合 作为 数据 分 流 的 方法 ,但 PAC 需要 用 户 在 
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浏览 器 中 配置 PAC 文件 ,有 
4 三 种 解析 HTTPS 方法 的 对 比分 析 

上 上述 的 三 种 方法 (以 下 分 别 简称 为 :浏览 器 扩展 、 
SSL 网 关 和 代理 程序 ) 都 可 以 用 于 解析 基于 HTTPS 协 
议 的 访问 数据 ,但 每 种 方法 所 适用 的 环境 不 尽 相 同 。 
本 文 将 从 软 硬 件 需求 .网 络 条 件 、 系 统 功 能 .用户 配合 
需求 四 个 方面 对 这 三 种 方法 进行 比较 ,分 析 不 同方 法 
的 优 劣 势 。 
4.1 软 硬 件 需求 

软 硬 件 需求 是 指 应 用 各 种 方法 时 需要 添加 的 硬件 
设备 ,安装 a eds 

在 硬件 方面 三 种 方法 都 需要 一 台 专 门 的 服务 器 
me ened 
SSL 网 关 还 需要 购买 专门 的 网 关 设备 ,所 需 成 本 最 高 。 
代理 程序 需要 分 析 和 转发 数据 包 , 对 服务 器 的 性 能 
求 较 高 ,人 硬件 成 本 取决 所 需 处 理 的 流量 大 小 ,但 一 般 不 
会 超过 SSL 网 关 。 浏 览 器 扩展 仅 需 在 服务 器 上 架设 
Web 服务 器 用 于 接收 浏览 器 采集 到 的 访问 信息 ,对 服 
务 器 的 性 能 要 求 最 小 ,所 需 的 硬件 成 本 最 低 。 

在 软件 方面 三 种 方法 都 需要 安装 数据 库 程 序 来 存 
储 用 户 请 求 信息 。SSL 网 关 需 要 编写 日 志 收 割 程 序 ; 
浏览 器 扩展 需要 编写 扩展 程序 ,同时 编写 Web 页 面 用 
于 接收 访问 请 求 信 息 ; 代 理 程 序 需 要 安装 相应 的 代理 
软件 ,并 在 软件 中 编写 代码 用 于 记录 电子 资源 访问 请 
求 ; 采 用 数据 分 流 技术 的 代理 程序 还 需要 配置 核心 交 
换 机 的 策略 路 由 功能 或 制作 PAC 文件 。 从 技术 难度 
上 来 说 ,代理 程序 所 需 的 技术 难度 最 高 ,浏览 器 扩展 其 
次 ,SSL 网 关 最 低 。 
4.2 网 络 条 件 

网 络 条 件 是 指 方法 的 应 用 是 否 需要 变更 原 有 的 网 
络 拓扑 ,服务 器 或 网 关 设 备 需 要 安装 在 网 络 当 中 的 哪 
个 位 置 。 

SSL 网 关 对 网 络 环境 的 要 求 最 高 ,需要 将 SSL 网 
关 直 接 接 入 到 原 有 的 网 络 拓扑 中 ,作为 网 络 拓扑 的 核 
心 节点 。 不 采用 数据 分 流 方 法 的 代理 程序 所 在 的 数据 
分 析 服 务 器 和 SSL 网 关 一 样 需 要 接 和 人 到 网 络 拓扑 中 充 
当 核心 节点 。 采 用 策略 路 由 方法 分 流 数据 的 代理 程序 
需要 将 数据 分 析 服 务 器 连接 在 核心 交换 机 上 ,数据 分 
析 服 务 器 要 能 够 与 核心 交换 机 直接 通讯 ,中 间 不 能 
任何 额外 的 网 络 节 点 。 采 用 PAC 分 流 的 代理 程序 理 
论 上 来 说 可 以 将 服务 器 布置 在 单位 内 部 网 络 的 任意 位 
置 , 只 要 保障 用 户 访问 数据 可 以 被 转发 至 服务 器 。 一 


能 造成 用 户 的 抵触 。 
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般 为 了 保障 访问 速度 ,减少 中 间 节 点 ,还 是 应 该 将 服务 
器 与 核心 交换 机 直接 连接 。 浏 览 器 扩展 对 网 络 环境 的 
要 求 最 低 , 服 务 器 能 够 接收 到 用 户 发 送 来 的 信息 即 可 ， 
甚至 可 以 将 服务 器 架设 在 外 部 网 络 。 
4.3 系统 功能 
系统 功能 可 以 从 数据 采集 的 完整 性 ,使 用 统计 报 
告 生成 的 及 时 性 ,系统 控制 能 力 三 个 方面 进行 评价 。 
数据 采集 的 完整 性 方面 ,SSL 网 关 的 数据 来 源 于 
网 关 日 志 , 数 据 采 集 的 完整 性 取决 于 网 关 日 志 的 信息 
量 , 通 常情 况 下 网 关 日 志 只 记录 URL、 来 源 ,访问 时 
间 儿 个 信息 ,记录 的 信息 量 较 少 ,数据 采集 的 完整 性 较 
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SSL 代理 证 书 发 送 给 用 户 浏览 器 用 于 加 密 数据 ,通常 
这 个 证 书 都 是 由 SSL 网 关 或 代理 程序 自行 签发 。 浏 览 
器 接收 到 证 书后 会 对 证 书 做 验证 , 当 浏 览 器 发 现 证 书 
并 非 由 受信 任 的 根 证 书 机 构 签 发 时 ,会 在 浏览 器 访问 
相关 域名 时 提示 安全 证 书 不 受信 任 ,对 应 的 电子 资源 
也 会 出 现 无 法 正常 访问 的 情况 。 为 了 解决 这 个 问题 ， 
就 需要 用 户 在 客户 端 浏 览 絮 中 导入 SSL 代理 证 书 的 根 
证 书 ,并 将 该 证 书 添加 到 受信 任 的 根 证 书 颁发 机 构 中 。 
由 于 用 户 已 经 手动 信任 SSL 代理 证 书 的 根 证 书 , 相 应 
的 SSL 代理 证 书 也 会 被 浏览 器 所 信任 ,电子 资源 就 可 
以 正常 访问 。 采 用 PAC 分 流 方法 的 代理 程序 还 需要 


差 。 代 理 程序 和 浏览 器 扩展 都 可 以 直接 获取 到 整个 访 
问 行为 的 全 部 数据 ,包括 浏览 器 类 型 .用户 PP 地 址 \ 目 
标 dP 地 址 \ 访 问 时 间 、 访 问 页 面 URL, 访 问 页 面 HTML 


内 容 、 下 载 资源 类 型 等 ,甚至 可 以 通过 用 户 IP 地 址 再 


己 使 用 统计 报告 生成 的 及 时 性 方面 ,SSL 网 关 的 使 
用 统计 报告 的 生成 频率 取决 于 日 志 收 割 程序 的 采集 频 


j 户 在 本 地 浏览 器 中 配置 PAC 的 相关 设置 ,使 自动 代 
理 功能 可 以 生效 。 浏 览 器 扩展 则 需要 用 户 将 扩展 程序 
安装 到 浏览 器 中 ,并 开启 扩展 程序 功能 ,从 而 使 扩展 程 
序 可 以 正常 工作 。 三 种 方法 都 需要 用 户 做 出 配合 才能 
实现 对 基于 HTTPS 协议 访问 的 电子 资源 数据 的 采集 。 
综 上 所 述 三 种 方法 的 对 比分 析 如 表 2 所 示 : 

表 2 三 种 方法 对 比分 析 


Se 


. 


主 5 通 常 的 做 法 是 按 天 或 按 小 时 收割 日 志 ,及 时 性 方面 
2 时 级 别 。 代 理 程序 和 浏览 器 扩展 记录 访问 数据 是 
随 鞠 用 户 的 信息 访问 行为 实时 发 生 的 ,也 就 是 说 可 以 
实 昱 监控 用 户 的 访问 行为 以 及 实时 生成 使 用 统计 报 
告 : 允 时 性 为 实时 级 别 。 

统 控制 能 力 方面 ,SSL 网 关 一 般 只 对 访问 行为 


a 


进 符 记 录 ,不 提供 更 改 数据 内 容 的 能 力 ,有 些 SSL 网 关 


提供 黑 名 单 功 能 ,可 以 拦截 指定 域名 的 访问 ,系统 控制 


有 具 有 完全 的 控制 能 力 , 可 以 拦截 或 修改 用 户 请 求 和 服 
务 絮 的 返回 内 容 ,系统 控 制 能 力 十 分 强大 。 浏 览 器 扩 
及 需要 安装 在 用 户 的 浏览 器 上 ,其 实现 的 功能 要 考虑 
普 适 性 问题 ,难以 针对 具体 用 户 做 特定 的 功能 控制 , 当 
功能 出 现 变更 的 时 候 要 等 待 用 户 更 新 浏览 器 扩展 后 新 
的 功能 才能 生效 。 代 理 程序 对 用 户 请 求 的 控制 在 数据 
分 析 服 务 器 上 进行 ,可 以 针对 不 同情 况 设 定 更 多 的 功 
能 ,也 可 以 针对 特定 用 户 请 求 设 定 不 同 的 应 对 策略 , 当 
系统 功能 更 新 后 可 以 立即 生效 ,因此 代理 程序 的 系统 
控制 能 力 要 高 于 浏览 器 扩展 。 
4.4 用 户 配合 需求 

用 户 配合 需求 是 指 需要 用 户 在 客户 端 做 出 的 配 
合 , 比 如 安装 证 书 、 安 装 浏览 器 扩展 程序 \ 修 改 系统 设 
置 等 。 
采用 中 间 人 技术 的 SSL 网 关 和 代理 程序 需要 将 


项 目 SSL 网 关 代理 程序 。 浏览 器 扩展 

软件 技术 难度 低 高 中 

硬件 需求 成 本 高 中 低 

网 络 环境 要 求 高 中 低 
系统 功能 低 高 中 

用 户 配合 需求 中 中 高 


5.1 三 种 方法 的 选取 策略 

SSL 网 关 需 要 添加 或 更 换 网 关 设 备 ,改变 原来 的 
网 络 拓扑 结构 ,硬件 成 本 最 高 ,系统 功能 最 低 。 如 有 果 图 
书馆 对 电子 资源 的 使 用 统计 报告 要 求 不 高 ,并 且 所 在 
机 构 正 好 需要 对 网 关 设备 进行 升级 换代 时 ,可 以 建议 
网 络 部 门 选取 支持 SSL 代理 的 网 关 设备 。 

浏览 絮 扩 展 所 需 的 成 本 最 低 , 其 提供 的 系统 功能 
已 经 可 以 满足 大 部 分 图 书馆 的 需求 。 浏 览 器 扩展 需要 
在 客户 端 浏览 器 中 安装 扩展 程序 ,部 分 用 户 可 能 因为 
安全 问题 而 拒绝 安装 。 当 图 书馆 对 用 户 有 较 强 的 控制 
能 力 ,能 够 强制 用 户 安装 浏览 器 扩展 ,在 成 本 有 限 的 情 
况 下 ,可 以 采用 浏览 器 扩展 的 方法 。 

代理 程序 所 能 提供 的 系统 功能 最 强 , 但 技术 方面 
的 要 求 最 高 ,同时 也 需要 网 络 部 门 和 用 户 给 予 一 定 的 
配合 。 如 果 图 书馆 需要 十 分 强大 的 系统 功能 ,要 求 系 
统 能 够 针对 不 同 用 户 采 取 不 同 的 采集 和 控制 策略 , 系 
统 生 成 的 使 用 统计 报告 详细 准确 ,并 且 图 书馆 自身 具 
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有 一 定 的 技术 开发 能 力 ,能 够 取得 用 户 的 配合 ,可 以 采 
用 代理 程序 的 方法 。 

以 笔者 所 在 单位 中 国 科学 院 福建 物质 结构 研究 所 
(以 下 简称 “我 所 ”) 为 例 , 在 构建 电子 资源 使 用 统计 系 
统 时 考虑 了 以 下 因素 :中 我 所 规定 课题 组 根据 电子 资 
源 使 用 量 分 担 一 部 分 电子 资源 费用 ,这 就 要 求 电子 资 
源 使 用 统计 系统 能 够 提供 个 人 以 及 课题 组 的 准确 统计 
数据 ;@) 电 子 资 源 使 用 统计 系统 能 够 监控 预警 .处理 
异常 的 文献 下 载 行为 ;@ 用 户 能 够 接受 安装 SSL 代理 
证 书 ,无 法 接受 浏览 器 扩展 程序 和 PAC 文件 ;由 我 所 
的 核心 交换 机 和 防火 墙 设 备 支 持 策略 路 由 功能 ,网 络 
部 门 愿 意 配合 配置 策略 路 由 功能 。 综 合 上 述 因素 ,我 
所 选取 了 Fiddler 代理 程序 用 于 解析 记录 电子 资源 访 


面 URL 替换 为 对 应 的 文摘 页 面 URL, 用 户 点 击 ACS 
据 库 文章 标题 时 就 不 再 访问 全 文 页 面 而 是 访问 文摘 
面 ,从 而 避免 了 不 必要 的 全 文 数据 的 重复 访问 。 
5.3 存在 的 问题 及 未 来 发 展 方向 

SSL 网 关 和 代理 程序 需要 用 户 安 装 证 书 ,浏览 器 
扩展 需要 用 户 安装 扩展 程序 ,PAC 分 流 方法 需要 用 户 
在 浏览 器 中 配置 PAC 文件 ,无 论 哪 种 方法 都 需要 在 用 
户 在 客户 端 添 加 额外 的 文件 ,不 可 避免 的 侵犯 了 用 户 
的 隐私 ,同时 也 给 用 户 带 来 数据 安全 方面 的 风险 。 用 
户 出 于 数据 安全 和 个 人 隐私 方面 的 考虑 ,一 般 都 难以 
接受 在 客户 端 安装 额外 的 程序 。 图 书馆 在 应 用 本 地 化 
电子 资源 使 用 统计 系统 的 过 程 中 除了 应 该 考虑 如 何 保 
护 用 户 的 隐私 不 被 侵犯 ,还 应 保障 不 会 因为 安装 证 书 


沼 洋 河 


问 数据 ,并 在 防火 墙 设备 上 开启 策略 路 由 功能 分 流 电 
子 资源 访问 数据 。 
[23 我 所 电子 资源 使 用 统计 系统 实施 效果 

根据 上 述 方案 ,我 所 于 2017 年 7 月 份 完成 本 地 化 
沁 资 源 使 用 统计 系统 (以 下 简称 “系统 ”) 部 署 。 经 
务 次 修改 调整 后 ,目前 系统 运转 稳定 并 提供 了 良好 的 


QJ 在 数据 采集 方面 ,系统 实现 了 ACS、Wiley ,Science 
DEBt .RSC ,Nature .Science ,AIP .OSA ,Springer 共计 9 
代 误 刀 库 的 全 文 访问 数据 的 记录 ,2018 年 度 共存 储 全 
文 盖 问 记录 431 342 条 。 通 过 该 数据 可 以 生成 各 数据 
大 的 全 文 下 载 量 .下载 量 占 比 和 篇 均 成 本 数据 ,为 图 书 
馆 尝 握 电子 资源 使 用 情况 ,调整 电子 资源 保障 策略 提 
供 了 王强 有 力 的 支撑 。 除 此 之 外 ,还 可 以 了 解 各 课题 组 
的 伪 科 方向 ,文献 需求 等 信息 ,有 助 于 图 书馆 开展 个 性 
化 信息 服务 。 

在 数据 应 用 方面 ,根据 2017 年 12 月 1 日 至 2018 
FE 11 月 30 日 的 电子 资源 全 文 访问 数据 ,我 所 于 2018 
FE 12 月 份 完成 了 课题 组 分 担 电子 资源 费用 的 工作 。 
全 所 92 个 课题 组 合计 分 担 电子 资源 费用 1 002 090.27 
元 。 由 于 系统 记录 的 全 文 访问 数据 包含 用 户 上 网 账 
号 ,IP 地 址 ,全 文 URL 和 访问 时 间 等 信息 ,数据 详细 准 
确 ,各 课题 组 对 数据 和 费用 没有 异议 ,电子 资源 费用 分 
担 工作 得 以 顺利 进行 。 

在 系统 控制 方面 ,用 户 在 ACS 数据 库 点 击 文章 标 
题 时 会 自动 跳 转 到 全 文 页 面 并 生成 一 次 全 文 访问 记 
录 , 当 用 户 在 全 文 页 面 再 下 载 PDF 文件 时 会 再 生成 一 
次 全 文 访问 记录 ,这 就 造成 了 全 文 数据 的 重复 访问 。 
针对 这 种 情况 ,系统 在 Fiddler 程序 中 采取 了 URL 替换 
的 措施 。 当 系统 检测 到 用 户 点 击 ACS 标题 时 ,将 全 文 
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或 扩展 程序 而 带 来 用 户 数 据 泄漏 的 风险 。 

本 地 化 电子 资源 使 用 统计 系统 在 未 来 应 该 考虑 引 
进 新 的 技术 手段 ,在 不 需要 用 户 安 装 任 何 程序 的 情况 
下 实现 基于 HITPS 协议 的 电子 资源 访问 数据 的 采集 。 
系统 采集 的 到 的 数据 不 应 该 只 用 于 生成 使 用 统计 报 
告 ,不 应 该 仅 是 采用 可 视 化 的 方法 展示 数据 ,而 应 采用 
数据 分 析 , 机 器 学 习 , 深 度 学 习 等 方法 对 数据 进行 深入 
挖掘 ,分 析 了 解 用 户 需 求 ,构建 用 户 画 像 ,为 个 性 化 的 
知识 服务 提供 依据 。 
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A Comparative Study of Local Electronic Resource Usage Statistics System 
for Resolving HTTPS Access Data 
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Abstract: [Purpose/significance | Aiming at the new problems of local electronic resource usage statistics system, 


this Paper proposes some methods for resolving HTTPS access data, analyzes and evaluates these methods. It provides a 


réference for the library to solve the collection problem of electronic resource access data based on Https protocol access in 


the local electronic resource usage statistics system. [Method/process] From the four aspects of hardware and software 


regairements , network condition, system functions and user coordination requirements, this paper compared and evaluated 


tHe'three methods including browser extensions, proxy supporting MITM technology, and devices that support SSL proxy 


gaieway. [ Result/ conclusion | The result shows that proxy supporting MITM technology is moderately costly and has the 


stfonbest system functions, which most suitable for local electronic resource usage statistics systems. On the basis of sol- 


vinathe problem of HTTPS access data collection, how to ensure user privacy and data security ，obtain user cooperation 


atidéCooperation will be the biggest difficulty in the application of local electronic resource usage statistics system. 


dKeywords.: electronic resource usage statistics browser extension proxy SSL proxy gateway 
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口 面向 扁平 化 服务 的 数字 资源 标准 化 管理 体系 建 
设 一 以 重庆 大 学 图 书馆 为 个 ( 王 英 ” 杨 新 涯 ) 
学 科 领 域 科研 产 出 的 空间 分 布 规律 研究 一 一 以 计算 
机 软件 与 应 用 学 科 为 例 (马超 李纲 毛 进 等 ) 
大 数据 时 代 个 人 信息 保护 研究 综述 
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